加速推理工具

Xinference 是什么？

Xinference 是一个分布式的模型推理框架

chatglm.cpp 是一个 ChatGLM 的加速推理工具

检查有没有安装 cmake，如果没有则安装，则先安装 https://cmake.org/

把下面这个目录的文件

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.1\extras\visual_studio_integration\MSBuildExtensions

都丢到

C:\Program Files\Microsoft Visual Studio\2022\Community\MSBuild\Microsoft\VC\v170\BuildCustomizations

修改 setup.py 文件

cmake_args = [
    # 加上这个才能使用 GPU
    f"-DGGML_CUBLAS=ON",
]

触发构建

pip install .